TLabel: Nouvel opérateur d'agrégation par catégorisation dans les cubes de textes

نویسندگان

  • Lamia Oukid
  • Omar Boussaïd
  • Nadjia Benblidia
  • Fadila Bentayeb
چکیده

Résumé. L’analyse en ligne (OLAP) dans les cubes de textes nécessite la définition de nouveaux types d’opérateurs d’analyse appropriés aux données textuelles. En effet, les opérateurs d’agrégation classiques ont montré leur efficacité pour l’analyse en ligne des données numériques, mais ils sont inadaptés pour l’analyse des données textuelles. Dans cet article, nous proposons un nouvel opérateur d’agrégation par catégorisation nommé TLabel (Text Label) permettant d’agréger les données textuelles en plusieurs classes de documents. A chaque classe sera associée une étiquette (Label) qui représente le contenu sémantique des données textuelles de la classe grâce à une adaptation des techniques de fouille de textes à l’OLAP. Nous avons effectué une étude expérimentale sur notre opérateur TLabel. Les résultats préliminaires montrent l’intérêt de notre approche pour l’analyse en ligne des données textuelles.

برای دانلود متن کامل این مقاله و بیش از 32 میلیون مقاله دیگر ابتدا ثبت نام کنید

ثبت نام

اگر عضو سایت هستید لطفا وارد حساب کاربری خود شوید

منابع مشابه

C-CUBE: Un nouvel opérateur d'agrégation pour les entrepôts de données en colonnes

RÉSUMÉ. Les bases de données orientées colonnes offrent au domaine décisionnel le modèle le plus approprié au stockage des entrepôts de données. Cependant, en l’absence d’opérateurs d’analyse en ligne, le seul moyen, très coûteux, qui existe pour construire des cubes OLAP consiste à utiliser l’opérateur UNION sur des requêtes de regroupement afin d’obtenir l’ensemble des Group By nécessaires au...

متن کامل

Cube de textes et opérateur d'agrégation basé sur un modèle vectoriel adapté

Lamia Oukid et Al. Cube de textes et opérateur d'agrégation basé sur un modèle vectoriel adapté 1 / 27

متن کامل

A note on polynomial approximation in Sobolev spaces

Résumé: Pour des domaines étoilés on donne des nouvelles bornes sur les constants dans les inégalités de Jackson pour les espaces de Sobolev. Pour des domaines convexes, les bornes ne dépendent pas de l’excentricité. Pour des domaines non-convexes ayant un point rentrant, les bornes sont uniformes par rapport à l’angle extérieur. L’outil central est un nouvel opérateur de projection sur l’espac...

متن کامل

Multi-catégorisation de textes juridiques et retour de pertinence

Résumé. La fouille de données textuelles constitue un champ majeur du traitement automatique des données. Une large variété de conférences, comme TREC, lui sont consacrées. Dans cette étude, nous nous intéressons à la fouille de textes juridiques, dans l’objectif est le classement automatique de ces textes. Nous utilisons des outils d’analyses linguistiques (extraction de terminologie) dans le ...

متن کامل

Exploitation de l'asymétrie entre termes pour l'extraction automatique de taxonomies à partir de textes

Résumé. Nous présentons dans cet article une nouvelle approche pour la génération automatique de structures lexicales (ou taxonomies) à partir de textes. Cette tâche est fondée sur l’hypothèse forte selon laquelle l’accumulation de faits statistiques simples sur les usages en corpus permet d’approximer des informations de niveau sémantique sur le lexique. Nous utilisons la prétopologie comme ca...

متن کامل

ذخیره در منابع من


  با ذخیره ی این منبع در منابع من، دسترسی به آن را برای استفاده های بعدی آسان تر کنید

برای دانلود متن کامل این مقاله و بیش از 32 میلیون مقاله دیگر ابتدا ثبت نام کنید

ثبت نام

اگر عضو سایت هستید لطفا وارد حساب کاربری خود شوید

عنوان ژورنال:

دوره   شماره 

صفحات  -

تاریخ انتشار 2015